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基于 非 对 称 双 分 支 交 互 神经 网 络 的 水 下 生物 识别 
E 力 , 宋 M 


(江南 大 学 物 联 网 工程 学 院 , 江苏 无 锡 214000) 


摘 要 : 针对 水 底 环 境 存 在 着 可 见 度 低 、 光 照 条 件 差 、 物 种 间 特 征 差 异 不 明显 等 问题 ， 基 于 卷 积 神经 网 络 ， 提 出 了 
一 种 新 的 非 对 称 双 分 支 水 下 生物 分 类 模型 。 模 型 中 交互 分 支 利 用 不 同 的 卷 积 神经 网 络 中 间 层 提取 局 部 特征 并 通过 交 
互 模块 对 局 部 特征 进行 交互 ， 增 强 分 类 模型 的 局 部 特征 学 习 能 力 ; 卷 积 神 经 网 络 分 支 可 以 有 效 地 学 习 到 目标 的 全 局 
特征 ， 弥 补 交 互 分 支 中 忽略 的 全 局 信息 。 在 Fish4-Knowledge(F4K)、EILAT、RAMAS 三 个 数据 集 上 取得 了 98.996, 
98.3%、97.9% 的 准确 率 ， 较 前 人 方法 有 显著 提高 ; 视觉 解释 也 验证 了 该 模型 可 以 有 效 地 捕捉 到 局 部 特征 并 消除 背景 
影响 。 最 终 显示 ， 该 模型 在 水 下 环境 具有 良好 的 分 类 性 能 。 

关键 词 : 水 下 生物 分 类 ; 非 对 称 双 分 支 ; 交互 分 支 ; 交互 模块 ; 局 部 特征 ; 卷 积 神经 网 络 分 支 ; 全 局 特征 
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Asymmetric two-branch interactive neural network for underwater image classification 


Zhao Li, Song Wei 
(School of Internet of Things Engineering, Jiangnan University, Wuxi Jiangsu 214000, China) 


Abstract: Based on convolution neural network, this paper proposed a new asymmetric two branch underwater biological 
classification model to solve the problems of low visibility, poor illumination conditions and no obvious differences among 
species in the underwater environment. In the model, the interactive branch used different convolution neural network to 
extracted local features and interacted with local features through the interactive module to enhanced the classification model. 
Convolutional neural network branch could effectively learned the global characteristics of the target and made up for the 
global information ignored in the interactive branch. Finally, this model obtains 98.996, 98.3% and 97.996 of the accuracy on 
the three data sets of fish4 knowledge (fAk) , Eilat and RAMAS, which are significantly improved compared with the previous 
methods. visual interpretation also verifies that the model can effectively capture local features and eliminates the background 
influence. Finally, it shows that the model has good classification performance in underwater environment. 

Key words: subaqueous classification; asymmetric branch; interactive branch; interactive module; local feature; 
convolutional neural network branch; global feature 


0 az 验 ， 具 有 真 大 的 盲目 性 和 不 确定 性 。 

C 5 和 传统 机 器 学 习 方法 相 比 ， 近 年 来 崛起 的 深度 学 习 方法 
c 海洋 生物 在 人 类 生活 中 扮演 着 非常 重要 的 角色 ,也 是 人 ”能 够 从 大 量 数 据 中 通过 卷 积 等 操作 自动 学 习 特征 ， 很 好 地 解 
三 类 宝贵 的 资源 之 一 。 经 过 海洋 专家 学 者 几 十 年 的 调 差 研究 ， 决 了 人 工 选 择 特征 的 问题 ， 已 经 成 为 解决 许多 计算 机 视觉 问 
我 国 管辖 海域 记录 到 的 海洋 生物 多 达 20278 种 ， 其 中 包括 5 题 的 首选 ， 如 : Abdelouahid 等 人 G1] 和 顾 正平 等 人 外 都 提出 了 

个 生物 界 ，44 个 生物 门 ， 占 世界 海洋 生物 总 种 数 的 10%， 占 。 ”采用 深度 卷 积 神经 网 络 模型 进行 鱼 类 识别 的 方法 ,虽然 这 些 

总 数量 的 50%。 海 洋 生物 识别 用 广泛 ， 可 用 于 水 产 、 生 物 、 ”方法 都 在 性 能 上 取得 了 较 好 的 效果 ， 但 是 依然 存在 着 明显 世 

海洋 等 环境 的 研究 、 开 发 、 管 理 等 。 对 各 类 生物 进行 建立 数 ”问题 : 首先， 特征 信息 在 卷 积 神经 网 络 中 传递 时 存在 着 信息 

据 库 ， 利 用 人 工 智 能 的 方法 自动 识别 生物 ， 不 仅 有 利于 海洋 “丢失 的 现象 ， 而 这 些 模 型 都 注重 于 对 单个 卷 积 层 的 输出 进行 
生物 资源 的 开发 和 利用 ， 也 能 在 海洋 渔业 生产 中 发 挥 重 要 的 。 分 类 ， 因 此 会 丢失 一 些 十 分 重要 的 分 类 信息 ， 其 次 ， 在 光照 

作用 ， 对 学 术 研 究 和 经 济 价值 都 具有 重大 意义 。 不 足 的 水 下 环境 中 卷 积 神经 网 络 容易 受到 背景 的 影响 。 信 息 

利用 传统 的 机 器 学 习 进 行 物 种 识别 过 程 大 致 为 : 获取 图 “丢失 和 背景 影响 都 会 导致 分 类 性 能 的 下 降 ， 因 此 需要 在 训练 

像 ， 提 取 特 征 ， 构 建 分 类 器 ， 然 后 将 特征 输入 分 类 器 中 进行 ”时 加 入 大 量 的 额外 标注 信息 ， 才 能 取得 较 好 的 分 类 性 能 ， 而 

分 类 ， 如 : Phenoix 等 人 叫 采 用 贝 叶 斯 和 高 斯 核 混 合 模型 对 鱼 。 ”对 数据 进行 额外 标注 本 身 是 一 项 费时 且 昂 贵 的 工作 ， 所 以 在 

的 局 限 性 


T J 
类 特征 进行 分 层 分 类 的 方法 来 实现 分 类 识别 ， 杜 伟 东 等 人 外 ” 实际 应 用 中 难以 满足 ， 有 具有 很 大 生 。 
提出 了 一 种 提取 多 方位 声 散射 数据 的 小 波 包 系数 奇异 值 、 时 本 文 针对 上 述 问题 及 任务 ， 基 于 CNN 提出 了 一 种 新 
域 质 心 及 离散 余弦 变换 系数 特征 ， 并 进行 特征 融合 ， 最 后 使 《《” 非 对 称 双 分 支 交 互 神 经 网 络 ， 具 有 以 下 结构 和 特点 : a) 交 
用 SVM 进行 分 类 的 识别 方法 ;尽管 这 类 方法 在 基于 计算 机 D: 采用 卷 积 神经 网 络 的 中 间 区 图 像 特 征 ， 然 后 通 
视觉 的 海洋 生物 分 类 方法 研究 上 取得 了 重大 进展 ， 但 是 依 | 交互 模块 对 不 同 中 间 层 所 学 习 到 的 局 部 特征 进行 集成 ， 以 
存在 明显 的 不 足 : 分 类 器 性 能 的 好 坏 很 大 程度 上 取决 于 人 为 ”” 强 交 互 分 支 对 局 部 特征 的 捕捉 和 学 习 ， 有 效 弥 补 特征 信息 
设置 的 特征 是 否 合理 ， 然 而 人 在 选择 特征 时 往往 都 是 依靠 经 ”传递 中 出 现 丢 失 的 不 足 。b) 卷 积 神经 网 络 分 支 : 能 有 效 的 
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所 到 目标 的 全 局 信息 ， 弥 补 交互 分 支 过 于 注重 局 部 信息 而 匆 。 着 光照、 颜色、 角度 等 诸多 因素 的 影响 ,但 CNN 依旧 证 明了 
略 全 局 信息 的 不 足 。 c) 两 大 分 支 通 过 融合 层 相 结合 ,在 光照 。 它 在 图 像 分 类 领域 的 优势 L2-19， 然 而 这 些 方法 也 存在 着 明显 
不 足 的 水 下 环境 中 也 可 以 良好 的 捕 提 和 学 习 到 目标 的 局 部 和 ”的 缺陷 : CNN 在 对 目标 的 特征 提取 时 ， 往 往 容易 受到 背景 影 
全 局 特征 信息 ， 并 区 分 目标 和 背景 ， 消 除 背 景 影响 ， 显 著 担 ， 响 ， 误 将 背景 噪声 作为 目标 进行 信息 提取 ， 因 此 在 训练 时 ， 
高 分 类 效果 。 本 模型 有 效 的 解决 了 现 有 传统 机 器 学 习 模型 和 需要 加 入 人 工 制作 的 诸如 形状 .颜色 和 纹理 等 手工 特征 信息 ， 
现 有 深度 学 习 模型 存在 的 缺陷 ， 并 且 在 三 个 数据 集 上 的 都 有 ”以 加 强 模型 对 目标 和 背景 的 区 分 能 力 ， 对 手工 特征 信息 的 依 
着 优 于 其 他 模型 的 分 类 性 能 。 赖 导致 这 些 方法 很 难 应 用 于 大 型 数据 集 ,具有 一 定 的 局 限 性 ; 

而 本 文 提出 的 分 类 方法 ， 不 需要 依靠 任何 人 工 特征 信息 便 可 
1 ”相关 工作 以 有 效 的 除去 背景 影响 ， 可 以 应 用 于 任何 水 下 图 像 数 据 集 。 
1.1 局 部 特征 学 习 


特征 学 习 是 图 像 分 类 过 程 中 十 分 重要 的 部 分 ， 与 基 类 别 20 非 对 称 双 分 支 网 络 
(如 : 猫 和 狗 ) 之 间 的 差异 相 比 , 同 种 基础 类 别 中 的 不 同 种 子 类 在 本 章 中 ， 基 于 卷 积 神经 网 络 ， 提 出 了 一 个 非 对 称 的 双 
别 (如 : 不 同 种 类 的 珊瑚 08 等 ) 生 物体 之 间 的 差异 非常 细微 ， 分 支 网 络 用 于 水 下 物种 分 类 ， 不 需要 依赖 任何 人 工 特征 信息 
而 且 这 些 细微 的 差异 仅 存在 于 目标 图 像 的 局 部 特征 (如 珊瑚 就 可 以 消除 背景 产生 的 影响 并 捕捉 到 细微 的 局 部 特征 ;适用 
的 冠 部 、 叶 片 ， 鱼 类 的 鳍 、 尾 、 腹 等 ); 仅仅 通过 全 连接 的 普 ”于 何 种 水 下 场景 的 生物 识别 数据 。 

通 神经 层 很 难 解析 到 这 些 细微 的 特征 信息 ， 因 此 ， 在 识别 过 2.1 非 对 称 双 分 支 
程 中 ， 常 规 的 神经 网 络 模型 性 能 往往 会 受到 限制 后 。 针 对 上 与 普通 的 基 类 别 识别 不 同 ， 同 一 基 类 别 的 不 同 子 类 别 之 
述 问题 ，Zhang 等 63 提出 了 一 种 能 够 从 卷 积 特征 中 挑选 出 间 通 常 具 有 相似 的 外 观 ， 各 个 类 别 间 的 差异 更 加 细微 ， 子 类 
有 分 辩 力 的 局 部 特征 的 算法 ,利用 Selective search 产生 候选 。 别 识别 只 能 通过 微小 的 局 部 特征 差异 进行 区 分 ， 因 此 ， 如 何 
局 部 区 域 ,然后 利用 MMP (Multi-max pooling) 方法 ， 直 接 从 是 取 并 有 效 学 习 到 局 部 特征 信息 ,成 为 了 决定 子 类 别 识别 算 
民选 的 局 部 区 域 中 产生 局 部 特征 ， 对 这 些 特征 做 聚 类 , 并 计 ” 法 成 功 与 否 的 关键 所 在 。 但 是 绝 大 多 数 卷 积 神经 网 络 模型 仅 
算 每 一 个 聚 类 簇 的 重要 性 ， 选择 重要 的 聚 类 艇 作为 最 终 的 图 仅 专 注 于 利用 单 卷 积 层 进行 特征 学 习 ， 而 完全 忽略 了 特征 信 
像 局 部 特征 表示 : Perronnin 等 人 B3] 利 用 FV (Fisher vector) ” 息 在 不 同 层 之 间 传 递 时 发 生 的 信息 损失 ， 所 以 每 个 卷 积 层 学 
编码 将 目标 图 像 的 所 有 候选 局 部 特征 表示 成 一 个 向 量 ， 使 用 习 到 的 特征 信息 是 不 完整 的 ， 因 此 为 了 能 捕捉 到 更 多 的 局 部 
高 斯 混合 模型 (Gaussian mixture model, GMM) 对 候选 局 部 特征 ， 本 方法 在 卷 积 神经 网 络 的 基础 上 加 入 了 一 种 交互 非 分 
特征 进行 聚 类 ,并 通过 计算 各 个 类 的 相互 信息 值 选取 重要 的 。” xs Un] 1 所 示 ， 本 模型 由 交互 分 文 和 CNN 分支 构 成 ; 其 中 
局 部 特征 使 网 络 进 行 学 习 ; Simon. 等 B9 利 用 卷 积 网 络 特征 产 ”交互 分 支 使 用 3 个 以 卷 积 层 为 主 的 特征 提取 器 ， 对 图 像 进 行 
生 的 关键 点 ， 并 基于 这 些 关键 点 来 提取 局 部 特征 信息 。 以 上 ” 特征 提取 ， 然 后 将 不 同 提取 器 提取 的 特征 输入 交互 模块 ， 以 
方法 虽然 能 有 效 的 提取 到 局 部 特征 ， 但 均 采 用 Selective 增进 不 同 特征 之 间 的 信息 交互 ;与 基 类 别 识别 相 比 ， 子 类 别 
search 方法 产生 候选 局 部 区 域 ， 并 需要 计算 各 聚 类 簇 之 间 的 识别 更 加 注重 对 局 部 特征 的 学 习 ， 图 像 信息 的 信 噪 比 更 低 ， 

重要 性 ， 因 此 面临 巨大 的 计算 代价 问题 。 寻 此 更 容易 受到 光照 、 姿 态 、 背 景 等 因素 的 影响 ; 而 CNN 分 

Lin 等 由 提出 了 一 种 对 两 个 独立 CNN 的 输出 特征 进行 融 。” 支 可 以 有 效 的 对 目标 图 像 的 全 局 信息 (如 目标 的 形状 、 外 观 等 ) 
合 的 方法 ， 将 两 个 cnn 的 输出 特征 向 量 进行 外 积 然后 产生 高 。 进行 提取 ， 增 强 模 型 对 图 像 中 目标 的 定位 能 力 ， 消 除 光 照 、 
维特 征 ， 进 入 全 连接 层 进行 分 类 ; Kong 等 人 中 在 此 基础 上 对 ”背景 等 因素 的 影响 ， 以 弥补 交互 分 支 注 重 局 部 而 忽略 全 局 信 


NS 


方差 矩阵 采取 低 秩 化 ， 降 低 了 计算 复杂 度 ，Maji 等 四 提出 了 AWETE: 两 大 分 支 的 输出 最 终 通 过 融合 层 加 权 进 行 集成 。 
和 矩阵 平方 根 归 > 


归 一 化 ， 进 一 步 提 升 了 在 分 类 上 的 性 能 ，Wei 等 
?认为 常用 的 1*1 卷 积 核对 特征 进行 降 维 会 导致 降 维 后 的 特 
征 多 样 性 降低 ， 所 以 采用 P 奇异 向 量 降 维 ，Gao 等 PI 利用 M 


Tensor Sketch 对 二 阶 信息 进行 统一 并 减 小 特征 维度 ;Cnui 等 ~ 

[ Convl x | 
在 此 基础 上 使 用 Tensor Sketch 将 高 阶 信息 进行 汇总 ; Gou NM - 
等 59 通过 对 特征 矩阵 增 广 的 方法 得 到 了 同时 包含 一 阶 和 二 


阶 信息 的 特征 ， 并 利用 tensor sketch 对 其 进行 融合 操作 ;但 
是 ， 这 些 方法 仅仅 考虑 对 来 自 单个 卷 积 层 的 输出 特征 进行 处 图 
理 ， 而 在 实验 中 发 现在 CNN 中 不 同 的 卷 积 层 学 习 到 的 特征 (axpool 


f d Feature 
并 不 相同 ， 且 这 些 特征 信息 在 通过 不 同 卷 积 层 时 会 发 生 明显 一 一 2L | | im 
的 信息 丢失 ， 因 此 单个 卷 积 层 的 输出 特征 图 并 不 能 很 好 地 表 = c UP 37 
册 局 部 特征 之 间 的 细微 差 异 。 (icd P » id 
本 文 方法 将 利用 多 个 卷 积 层 提取 图 像 特征 ， 并 通过 交互 T | | - 
的 形式 集成 各 个 卷 积 层 捕捉 到 的 局 部 信息 ， 以 此 来 增强 模型 in pcs FE) TDI 
对 细微 局 部 特征 的 捕捉 和 学 习 能 力 。 T [Emil] | [moi 
1.2 卷 积 神经 网 络 Ws Lol. d 
于 近年 来 深度 学 习 在 各 领域 取得 良好 成 果 , CNN( 卷 积 E z 
神经 网 络 ) 已 经 成 为 各 种 视觉 识别 任务 的 通用 特征 提取 器 ; mem is E A 
Chatfield 等 人 (1 以 VGGnet 基于 图 像 分 类 对 CNN 的 性 能 i i ce I 
行 了 评估 , 并 和 以 前 的 特征 编码 方法 进行 了 比 对 ; 实验 表明 ， 
更 深 的 CNN 表现 优 于 在 已 增强 数据 上 训练 的 深度 较 浅 的 classification 
CNN 模型 。 Q1 非 对 称 双 分 支 网 络 


作为 以 水 下 为 应 用 场景 的 分 类 任务 ， 尽 管 水 下 图 像 存 在 Fig. 1 Asymmetric two-branch network 
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2.0 ”交互 分 支 


R A, 


交互 分 支 主 要 由 特征 提 
标 图 像 中 细微 的 局 部 特征 。 


在 于 捕捉 


部 特征 具有 很 强 的 代表 性 , 因此 可 以 


2.2.1 交互 分 支 分 解 


Kim 等 人 U6l 


于 多 模式 学 习 的 


分 解 的 基本 公式 ; 假设 一 个 图 像 T 通过 以 卷 
提取 器 进行 过 滤 ， 提 取 器 的 输出 为 高 度 已 ， 


其 中 W, e R> 是 权重 和 矩阵， 
的 矩阵 分 解 ， 式 (1) 可 以 分 解 为 1 


的 特征 映射 XeR” ;将 XX 中 空间 上 的 c 引 


取 器 、 交 互 模块 构成 ， 本 分 支 
在 分 类 中 这 些 细小 的 局 

效 提高 模型 的 分 类 性 角 

是 出 了 使 用 Hadamard 乘积 的 因 式 分 解 ， 用 


9 效 注意 力 机 制 。 在 本 小 节 
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等 : 基于 非 对 称 双 分 支 交 互 神经 网 络 的 水 下 生物 识别 


的 


已 
bo 


， 简 要 介绍 因 式 


职 层 为 主 的 特征 


2.3 RRAN 


络 分 支 
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上 节 中 的 交互 分 支 主 要 注重 对 


易 忽 略 全 局 信 


息 (例如 目标 的 形状 , 外 观 等 ), 导致 模型 对 
的 定位 能 力 较 弱 ， 在 识别 过 程 中 容易 受到 背景 和 光照 等 因素 


的 影响 ， 因 此 全 


局 信息 在 子 类 别 识别 中 也 有 着 至 关 重 要 的 作 


局 部 特征 的 学 习 ， 所 以 容 


标 


。 普 通 的 卷 积 字 
力 虽然 较 弱 ， 但 可 以 有 效 的 捕 ] 
此 在 为 一 分 支 中 保留 了 完成 


经 网 络 对 于 纪 


微 的 


局 部 特征 提取 和 学 习 能 


是 到 目标 图 像 的 全 局 信息 ， 


因 


w 宽度 ，C 通道 
佳 描述 符 表 示 为 


Xx=[X1,X2,…,Xe]'。 那 么 交互 模型 可 以 被 定义 为 


Zi = XIWX 


(1) 


z 是 模型 输出 。 根据 Rendel! 72 H 


zi = x"W;x = xU, Vx =U] xo Vx 


R Woo HE RE H4 xc H 


其 中 U eR,V eR , 


AN 


Z=[z1,22,...,Z0]， 则 zeR° 


Hadamard 积 ， 
寸 参数 。 
2.2.2 交互 模块 


EP U ERV en 是 不 同 交互 模块 
d 为 决定 交互 层 性 能 和 计算 复杂 度 的 可 定义 尺 


个 1 维 向 量 : 


Q) 


z—-UTxoV7x 


交互 模块 目的 在 于 增进 不 同 特征 提取 器 
图 之 间 的 交互 性 : 首先 通过 独立 的 


的 权重 矩阵 ， 


6) 
。 为 


所 提取 到 的 特征 


局 信息 以 弥补 交互 分 支 忽略 全 


局 信息 


的 卷 积 层 和 池 化 层 ， 用 于 提取 全 
的 不 足 ; 


在 融合 层 中 


对 两 个 分 支 的 输出 赋 以 不 同 的 权 值 进行 整合 : 


— Pt fusi spr 
Zoupu = P" fusion(Zineract» gus) = P" (Wi X Zinera + Wa X Zopject ) 


output 


其 中 : Zoja 为 卷 积 神经 网 络 提取 到 的 全 局 信息 ; w、 


征 信 息 和 全 


局 信 ， 


特征 信息 Zinera 与 Zonje 对 应 的 权 人 4 


筷 在 分 类 信息 中 所 


局 
直 ， 总 和 为 1， 以 控制 局 部 特 
5 的 比重 。 


(7) 
Wi 为 H 部 


实验 
评估 模型 性 


在 实验 中 ， 首 先 ， 采 用 三 个 最 常 ) 
能 ， 并 提供 了 与 前 人 方法 的 比较 ;然后 对 本 模型 


的 各 个 部 分 单独 进行 了 评估 ， 最 后 用 视觉 解释 直观 的 对 模型 


作出 解释 。 
3 s 
3.1 数据 集 


采用 三 个 水 下 生物 领域 最 常 


的 数据 集 / 


pk 


的 数据 集 ; 


EILAT 数据 集 09: 该 数据 集 为 从 同一 相机 拍摄 的 全 尺寸 


部 的 特征 ， 


取 器 的 特征 扩展 到 高 维 空间 ， 


然后 通过 hadamard 积 


FE 线性 映射 将 来 自 不 同 提 
以 便于 卷 积 层 捕捉 不 同 目标 局 


对 逐 元 素 进行 集成 ， 以 达到 


不 同 的 局 部 特征 之 间 进 行 交 互 的 目的 ， 最 后 


m2 


特征 压缩 为 紧凑 特征 。 
单个 交互 模块 中 ， 对 空间 上 第 i 维 的 不 同 特征 使 用 


hadamard 积 进行 交互 ， 可 以 定义 为 


Z-2ztz 


zi 2UPxoWy 


， 执 行 求 和 ， 将 


图 像 中 提取 的 图 像 块 , 包含 


1123 张 图 像 ， 


附近 的 


Jr 
即 其 中 90% 的 图 


瑚 礁 调查 中 相机 


像 构成 训练 集 ， 


Rosenstiel 海 


(4) 


其 中 x，y 为 来 自 于 不 同 提取 器 所 提取 的 特 生 
射 矩 阵 。 最 后 对 整个 空间 上 的 特征 矩阵 执行 
征 压缩 为 紧凑 的 特征 向 量 ， 假 设 空间 维度 为 


+z; +...+ z, =UTxoVTy 


一 步 增强 特征 信息 在 分 类 
于 不 同 提取 器 的 特征 ， 对 于 加 入 多 个 交互 模 
互 分 支 输出 ， 即 提取 到 的 


在 分 支 中 加 入 了 多 个 交互 模块 以 集成 多 个 特征 ， 从 1 
PF 的 表达 能 力 ; Bit 2 分 别 来 自 


局 部 特征 


Zinte 


` 
ract JY 


Zinera = Interaction(x, y, z) = 


concat(U? x oVT y,UTxoWTz,WTzoVTy)- 


U?TxoVTy 


定 着 交互 模块 的 性 能 。 
2.2.3 特征 提取 器 


其 中 U,V ,W eg , d 为 交互 模块 中 神经 层 


TUTxoW?Tz -WTzoVTy 


E, UF 和 为 映 
求 和 ， 将 高 维特 
o， 则 写作 : 


G) 


q 3E 


AR 
pau 


块 的 分 支 中 ， 


(6) 


的 尺寸 参数 ， 决 


如 图 


2， 因 为 卷 积 层 本 身 具 
以 将 卷 积 神经 网 络 的 中 间 卷 积 


提取 特征 


信息 的 功能 ， 所 


层 取 出 ， 加 入 非 线 性 函数 (Relu) 


和 归 一 化 (patch normalization)， 作 为 本 模型 的 特征 提取 器 。 
一 


P" A ; 


图 


2 特征 提取 器 


Fig.2 Feature extractor 


包含 766 个 图 


256*256. 该 数据 自 


RE EILAT 数据 集 


Fish4-Knowl 


Z 2013 ^£ 9 H3 


至 200*200, 


3.2 ”实验 设 定 
选 | 


观 景 台 收集 的 影像 数据 ， 其 中 
E 27370 张 鱼 
构成 训练 集 ， 其 余 20% 作 为 测试 集 。 


edge (FAK) IMEE: 


均 为 红海 EILAT 岛 


Bd SUR 64*64 像素 全 尺寸 图 片 ; 
专家 标记 分 为 8 类 。 本 数据 集 采用 10 折 交 叉 验 证 方法 ， 
ER 10% 作 为 测试 集 。 
洋 与 大 气 科学 学 院 在 珊瑚 礁 调查 中 收集 的 ， 
像 ， 被 专家 标记 为 14 个 类 别 , 每 个 图 像 
使 RAMAS 
数据 集 是 迈阿密 大 学 用 相同 的 交叉 验证 方法 。 

该 数据 集 是 台湾 电力 
公司 、 台 湾 海洋 研究 所 和 怪 丁 国家 公园 在 2010 年 10 


数据 集 (中 该 


0 日 期 间 ， 在 台湾 南 湾 兰 


上 和 胡 比 胡 的 水 下 


包含 23 种 鱼 


类 ， 大 小 为 20*20 


JÆ ImageNet 分 类 数据 集 上 预 训 
模型 中 的 卷 积 神经 网 络 分 支 ( 非 对 称 双 分 支 模型 亦 可 使 用 其 
也 种 类 的 卷 积 神经 网 络 ， 


例如 


Inception,R 


后 三 个 全 连接 层 , 


超 的 预 处 理 手段， 


设 定 为 0.9, weight decay (X3 
2] 38) 73 10? 并 在 学 习 停 滞 时 减少 10 倍 ; 
wi 和 wa 初始 值 均 设 为 


特征 信息 和 全 局 


平 翻转 ， 随 机 平移 ， 在 训练 过 程 中 使 用 
机 梯度 下 降 (SGD) 方 法 调整 整个 模型 ， 并 将 momentum( 动 量 ) 
E XEJA)7J 5*102, learning rate( 学 


然后 加 入 本 文 提 出 的 交互 分 支 ;输入 图 像 
尺寸 统一 为 224*224， 为 了 证 明 本 模型 的 性 能 并 非 依赖 于 高 


类 的 水 下 图 像 。 该 数据 集 的 80% 


练 的 VGG-16 (E 


esnet 45), 除去 其 最 


仅 采 


最 简单 的 数据 增强 方法 ， 如 随机 水 
batch size 为 16 


的 随 


着 息 所 在 比重 的 权 值 


融合 层 中 调节 局 部 


0.5 以 保证 二 者 占 比 均衡 , 随后 在 实验 中 加 以 调整 ; 所 有 实验 
均 在 谷歌 深度 学 习 框 架 tensorflow 上 进行 实现 。 
3.3 中间 层 选取 

作为 特征 提取 器 的 CNN 中 间 层 决定 了 捕捉 到 的 局 部 特 
征 在 分 类 中 是 否 具有 代表 性 ， 所 以 中 间 层 的 选取 十 分 重要 。 
以 VGG16,VGG19 为 例 ， 将 每 个 池 化 层 之 前 的 神经 层 视 为 一 


个 完整 的 卷 积 模块 (每 个 卷 积 模块 包含 2-3 
每 个 卷 积 模块 的 输出 分 别 输入 softmax 


个 卷 积 层 )， 并 将 


个 数据 集 上 的 精度 如 图 3 所 示 ; 


RHETT, E= 


up UA H 


HÆ CNN EH , 随 
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层 数 的 加 深 ， 卷 积 


也 更 具有 代表 性 ; 


UC 


区 | 


R A, 


F 级 别 也 越 
所 以 在 CNN 中 , 深层 提取 到 贡 


: 基于 非 对 称 双 分 支 交互 神经 网 络 的 水 下 生物 识别 


高 ， 在 分 类 中 
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在 所 有 数据 集 均 使 用 相同 标准 的 分 割 方法 情况 下 ， 将 三 个 特 


征 比 浅 层 


所 提取 到 的 特征 更 加 有 利于 分 类 ， 这 也 


一 致 P; 所 以 选取 最 后 一 个 卷 积 模块 中 的 中 间 


G 
Convolutional module 


3 VGG16、VGG19 中 不 同 中 


5 llli A 


- ramas 
=- eilat 


o 
Convolutional module 


Euh 


完 所 得 结论 


分 支 的 输出 者 


e 


VE JRE tE 


© 


Fig.3 Accuracy of different intermediate layers in VGG16、 VGGI9 
3.4 交互 模块 的 映射 尺寸 参数 及 定量 分 析 


式 (6) 中 提 到 ， 
尺寸 参数 d. 为 了 选取 合 适 的 d, | 


pb 存 在 着 决定 交互 性 能 的 神经 | 


数据 集 上 进行 了 实验 , 结果 如 恬 
示 将 提取 器 1， 


出 进行 融合 


K 1(1,2)- 1(1,3)- I(2,3)+CNN; 


四 4 各 种 组 合 在 不 同 


Fig. 4 Performance of various combinations at 


1024 


RSF d 时 的 性 能 


different sizes d 


图 4 中 可 L E 无 论 尺 寸 d 取 何 值 , F+CNN 分 类 过 程 中 至 关 重 要 ， 加 入 局 部 信息 
的 组 合 性 能 均 优 了 这 表明 可 以 通过 多 个 交互 模块 性能， 其 次 ， 当 wi 取 值 在 0.7~1 之 下 
以 增强 分 类 性 当 尺 寸 d 从 64 增加 到 512 时 ,所 有 
的 组 合 性 能 均 有 提 天 ， 性 能 有 所 下 降 。 考 。” 会 使 模型 在 分 类 过 程 中 受到 背景 和 光照 等 因素 的 影响 ， 导 
EI: 过 大 的 d 值 会 产生 更 高 的 计算 复杂 度 ，d 过 小 又 会 导 
致 模块 性 能 下 降 。 因 此 ， 在 接 下 来 的 实验 中 均 选 取 d=512 79 m, 进一步 提升 模型 的 分 类 性 能 。 考 虑 到 : 过 小 的 w 权 值 
最 佳 尺 寸 。 降低 模型 对 局 部 信息 的 学 习 能 力 , Tf 

为 了 对 交互 模块 进行 定量 ， 分 别 选 用 了 包含 1-3 个 交互 模型 对 全 局 信 


模块 的 组 合 RAMAS、EILAT 两 个 数据 集 
结果 如 表 1 所 示 


表 1 在 不 同 数据 


长 上 的 各 数量 模块 的 纪 


合 性 能 评 


不 同 的 模块 组 合 在 EILAT 
4 所 示 ; 其 中 1(1,2)+CNN 表 
层 然 后 将 其 输出 和 左 分 支 的 CNN 输 
、1I(2,3) 代 表 同 上 ; 


F+CNN 代 


模型 


征 提取 器 (CNN 中 取出 的 3 个 中 间 层 ) 的 输出 ， 卷 积 神经 网 络 
分 别 输入 全 连接 层 进行 了 分 类 测试 ， 并 与 完整 
4 的 分 类 (融合 层 ) 进 行 了 比较 。 


ru 


FE 本 模型 可 以 使 用 不 同类 别 CNN 的 想法 ， 在 实 


验 中 使 用 了 2 中 全 完 不 同 的 CNN， 比 较 结果 如 表 2 所 示 , fü 
的 注意 的 是 ,第 三 个 提取 器 在 性 能 上 明显 劣 于 前 2 个 提取 器 ， 


从 此 可 以 推 骨 


出: 虽然 更 深 的 卷 积 层 更 能 提取 到 有 利于 分 类 


的 抽象 特征 ， 


但 随 着 深度 增加 ， 层 之 间 的 信息 传递 中 存在 着 


明显 的 特征 信息 丢失 , 从 而 导致 分 类 性 能 下 降 ; 此 推断 也 在 后 
文中 的 视觉 解释 实验 中 得 到 了 证 实 。 因 此 想 要 提高 分 类 性 能 ， 


对 多 个 特征 信息 进行 更 好 地 学 习 才 是 关键 。 


表 2 


CNN 分 别 选 用 VGG16、resnet 的 结果 比较 


Tab.2 Comparison of the results of CNN using VGG16 and ResNet 


数据 集 CNN 特征 提取 器 1 特征 提取 器 2 特征 提取 器 3 融合 层 


EILAT 80.7 
RAMAS 79.5 
FAK 81.1 
EILAT $812 
RAMAS 80.1 
FAK 81.9 


80.1 82.6 81.2 98.3 
82.7 81.4 79.9 97.9 
83.9 84.5 81.9 97.1 
83.3 80.1 80.0 97.2 
81.7 82.6 80.9 96.8 
82.3 80.0 81.6 96.7 


3.6 融合 层 的 权 值 分 析 
式 (7) 中 提 到 ， 融 合 层 中 的 权 值 wi 和 w 分 别 控制 着 局 部 


信息 和 全 局 信息 
为 1. 为 了 选取 合适 的 wai 和 w2， 以 分 类 精度 作为 衡量 标准 
使 用 不 同 的 wi 值 在 三 个 数据 集 上 进行 了 实验 , 实验 结果 如 


5 所 示 。 


图 5 中 可 以 看 出 :首先 ,当局 部 
之 间 时 , 分 类 精度 随 着 wi 的 增加 而 


在 最 终 分 类 信息 中 所 占 的 比重 ， 二 者 之 和 恒 


DS 


息 权 值 wi 取 值 在 0~0.7 
升 , 这 表明 局 部 信息 在 


EEBB w 的 减 小 (w2=1-wi) 而 降 E 这 表明 名 各 全 局 信息 


zi m m nii 


， 分 类 精度 随 着 全 局 


is 
8 
分 类 性 能 下 降 ， 因 此 加 入 适当 比例 的 全 局 信息 可 消除 这 些 影 
会 
8 


过 大 的 wi MELSE 


上 进行 了 性 能 评估 ; 


Tab.1 Combined performance evaluation of each number of 


modules on different datasets 


RAMAS ELAT 
84.1 90.5 
86.3 85.9 
83.5 87.2 
1(1,2)(1,3)+CNN 90.9 93.0 
1(1,2)+1(2,3)+CNN 91.5 94.5 
1(1,3)+1(2,3)+CNN 93.1 95.4 
1(1,2)+1(1,3)+ 95.5 96.1 
1(1,2)+1(1,3)+I(2,3)+CNN 97.9 98.3 
首先 ， 综 合 前 6 项 和 最 出 ， 互 模块 
数量 ， 能 明显 改善 分 类 性 Da , REIA 
在 与 CNN 分 支 的 输出 融 提升， 也 证 明了 独立 
的 交互 分 支 过 于 注重 局 信息 ,而 CNN 分 
支 提供 的 全 局 信息 在 分 类 中 也 起 的 作用 。 
3.5 中 间 层 性 能 
为 了 证 明 局 部 特 和 能 提高 分 类 性 能 ， 


3.7 


息 的 忽略 。 因 此 ， 选 取 0.7 和 0.3 作为 权 值 wi 


和 wa 的 最 佳 取 值 。 


100.0 


-e- RAMAS 信息 


975] -@- EILAT 
-0 FAK 


— v — T T 
00 01 02 03 04 05 06 07 08 09 10 


图 5 不 同 权 值 (wj) 时 模型 的 分 类 性 能 


Fig.5 The classification performance of the model with 


different weights (wi) 


3.7 分 类 结果 对 比 


在 本 节 中 ， 在 每 个 数据 集 上 ， 都 将 交互 双 分 支 模型 的 性 


视觉 特征 。 


与 法 进行 比较 ， 需 要 说 明 的 是 ， 不 同方 法 及 模型 的 
习 能 力 不 同 ， 因 此 所 学 习 到 的 视觉 特征 也 并 不 相同 ， 而 模 
是 I 良好 的 分 类 性 能 取决 于 该 模型 能 否 学 习 到 关键 


表 3 中 显示 了 双 分 支 交 互 网 络 的 结果 和 目前 在 


RAMAS.EILAT 两 个 数据 集 上 精度 最 高 的 结果 ; 其 中 VGGI6 


和 Resnet-50 均 为 在 Imagenet 进行 预 训练 然后 在 数据 集 上 进 


日 


行 训练 的 结果 ; 值得 一 提 的 是 第 8 项 所 采用 的 方法 在 训练 过 


程 中 也 依赖 手工 制作 的 特征 ， 第 9 项 为 目前 的 最 新 技术 ， 达 


202009.00061 v1 


chinaXiv 


录用 定稿 R 力 ， 
到 了 目前 的 最 高 精度 ， 但 该 方法 仅 注 重 局 部 特征 ， 而 忽略 了 
目标 图 像 的 全 局 特征 ， 因 此 在 光照 条 件 差 的 水 下 环境 中 ， 分 
类 性 能 受到 了 背景 的 影响 ， 表 3 最 后 一 项 可 以 看 出 ， 不 依赖 
任何 手工 特征 的 交互 双 分 支 网 络 的 分 类 性 能 明显 优 于 其 他 方 
法 ， 达 到 了 最 高 的 分 类 精度 。 

表 3 在 RAMAS，EILAT 数据 集 上 的 各 个 方法 性 能 评估 


Tab.3 Performance evaluation of each method on 
RAMAS, EILAT dataset 


方法 


RAMAS EILAT 


方法 


RAMAS 


EILAT 


文献 [22] 
文献 [24] 
VGG-16 
Resnet-50 
文献 [23] 


69.3 
73.9 
79.5 
80.1 
82.5 


87.9 
67.3 
80.7 
81.2 
75.2 


cResFeats 


文献 [21] 
文献 [18] 
文献 [25] 


30] 


交互 双 分 支 网 络 


85.4 
96.5 
97.1 
98.8 
99.2 


69.1 
96.9 
97.5 
99.1 
99.4 


RE 


表 4 中 4 
精度 最 


照 清 


上 精度 仅 有 


17.1496; 5 


晰 度 和 背景 影响 


高 的 结果 ; Hy 
Imagenet 进行 预 训练 然后 在 数 扫 
Wei 等 人 R71 以 FAK 中 的 鱼 类 名 称 为 关键 字 , fi) 
载 了 更 加 清晰 的 
[删除 和 切割 ， 


程度 进 


i 


ÍT] 


H VGG16 


显示 了 双 分 支 交 互 网 络 的 结果 和 目前 在 F4K 数据 
和 Resnet-50 均 为 在 
局 集 上 进行 训练 的 结果 ; 


其 中 ， 


谷歌 搜索 引 


图 片 ， 并 对 错误 的 图 像 以 及 边界 区 志 
] 以 此 来 构建 了 高 
量 的 数据 集中 达到 了 97.3% 的 精度 ， 
长 俊 龙 等 BU 也 对 每 


的 精 


度 ， 而 在 中 、 


氏 品 质 的 三 个 子 数据 集 ， 
低 质 量 


的 精度 ， 为 本 数据 集 


mi 


或 进 


每 种 鱼 类 的 图 片 按 
划分 ,将 数据 集 分 为 高 .中 、 
在 高 质量 数据 集 上 达到 了 97.0% 


上 目前 所 达到 的 最 


数据 集 上 的 精度 为 94% 和 9096; 


各 项 方法 ， 交 互 双 分 支 网 络 
依赖 任何 人 工 提 取 和 制作 的 特征 。 


顾 


E 平 等 人 只 采用 迁移 学 习 的 CNN+SVM 方法 ， 达 到 了 98.696 
高 精度 ; 对 比 前 人 的 


的 ; 


仁 确 度 均 有 明显 提高 ， 并 且 不 


表 4 在 F4K 数据 集 上 的 各 个 方法 性 能 评估 
Tab.4 Performance evaluation of various methods on 
the FAK dataset /% 
方法 精度 方法 精度 
LDA+SVMPg 80.4 | 文献 [27]( 高 质量 数据 集 ) 97.3 
VLFeat Dense-SIFTU9 93.5 文献 [31] 97.0 
VGG-16 81.1 文献 [4] 98.6 
Resnet 81.9 交互 双 分 支 网 络 98.9 
文献 [15] 96.3 


3.8 视觉 解释 及 分 析 


中 模 
的 区 
6 表 


正 HT, 


为 了 更 好 的 解释 本 模型 , 使 用 
的 输出 进行 了 视觉 解释 ， 如 图 6 p 


Hj, 


78 i P8 B] D 389 
或 ， 则 说 明 在 分 类 中 的 贡献 越 大 ， 所 


在 光照 条 件 较 差 的 水 下 场景 ， 普 通 的 卷 积 


p, 即 模 型 


的 注意 力 


5 比重 就 越 大 。 


Grad-cam SEXTA [8] Ez 
Ta, 热力 部 分 代表 着 分 类 
Xi; AJE 


色 越 深 
图 


于 色差 较 弱 的 原 


> 


层 在 提取 


,很 容易 收 到 ee 


背景 当做 目标 进行 特 生 


是 取 。 此 外 ， 还 


F 提 


背景 的 影响 ， 
可 以 看 出 ， 在 4 


a 


取 和 学 习 时 ， 卷 积 层 对 


局 部 特征 具有 


捉 能 力 ， 


同 的 卷 积 层 所 关注 


区 域 有 很 大 不 同 ， 


并 


在 特征 信息 的 


ER 
征 交 


并 有 
4 


卷 积 神 


征 (如 


, 存在 着 H 


鱼 类 的 头 部 、 
中 确 发 挥 着 至 关 习 
而 导致 分 类 性 能 下 降 的 推断 。 
交互 并 对 其 进行 


H 


p 


un 


的 特 生 


成 ， 极 大 的 提高 了 特征 


E 信 
尾部 、 腹 部 ， 
的 作用 ; 


BER; m 


同时 也 证 明 


珊瑚 的 冠 部 、 


本 模型 


效 的 去 除了 1 


结束 语 


于 水 下 光线 弱 而 导致 


本 文 基于 深度 学 习 研 究 了 水 


经 网 络 提 


出 了 


有 交互 和 集 


这 些 丢 失 的 
叶片 等 ) 在 分 类 
了 3.5 中 特征 信息 
通过 促进 不 同 的 特 
盲 息 的 利用 率 ， 
的 背景 影响 。 


下 生物 分 类 的 算法 ， 并 基于 
成 模块 的 非 对 称 3 


局 部 特 


交互 双 分 


等 : 基于 非 对 称 双 分 支 交 互 神经 网 络 的 水 下 生物 识别 


支 网 络 模型 。 通 过 实验 ， 在 三 个 最 常 / 


1$ 


方法 ; 
良好 的 分 类 性 能 。 
恶劣 、 图 像 质量 更 差 的 场景 中 
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的 水 下 生物 数据 集 上 
1 了 最 高 的 精度 ， 这 充分 说 明了 本 模型 并 不 依赖 任何 人 
更 不 需要 有 关 海 洋 生 物 领 域 的 相关 知识 ， 便 可 以 达到 
将 来 ， 将 继续 扩展 研究 ， 在 环境 条 件 更 加 
， 如 何 更 加 有 效 的 学 习 并 集成 


多 个 图 导 特 全 以 达到 更 们 的 分 类 性 能 


取 器 1 (c) 提 取 器 2 (d) 提 取 器 3 


() 原 图 b (©) 融 合 层 
图 6 不 同 层 输出 的 视觉 解释 


Fig.6 Visual interpretation of different layer outputs 
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